モダンデータスタック カテゴリ紹介 #4 『Data Warehouses(データウェアハウス)』 – Modern Data Stack Categories Overview Advent Calendar 2023
当エントリは『Modern Data Stack Categories Overview Advent Calendar 2023』 4日目のエントリです。
- Modern Data Stack Categories Overviewのカレンダー | Advent Calendar 2023 - Qiita
- Modern Data Stack Categories Overview Advent Calendar 2023 の記事一覧 | DevelopersIO
データ分析、データを扱う世界では昨今『モダンデータスタック(Modern Data Stack/MDS)』という考え方、サービス構成が大きな注目を浴びています。データの収集、処理、保存、分析に使用されるツールとクラウドデータサービスを集めたソリューションを指す言葉です。クラスメソッドとしてもこのモダンデータスタック(Modern Data Stack/MDS)を推しており、下記の内容でお客様にサービスとして提供しています。
このモダンデータスタックという考え方、現在では構成するサービス群のジャンルが非常に多岐に渡ってきています。このカテゴリ分けも正直企業や個人によって定義が分かれていたりするのですが、『Modern Data Stack - Everything that you need to know !』というサイトではこのカテゴリ分類がシンプルかつ分かりやすく展開されています。このアドベントカレンダー企画では、このサイトで展開されているカテゴリ毎について内容を理解することで見識を広め、今後のサービス展開・サービス選択を検討する足掛かりとして行きたいと思います。
当エントリでは、Modern Data Stack(MDS)におけるカテゴリ『Data Warehouses(データウェアハウス)』の内容について紹介します。
目次
モダンデータスタック(Modern Data Stack/MDS)における『データウェアハウス』とは
アドベントカレンダー企画の趣旨については1日目のエントリ内『当アドベントカレンダー企画について』をご参照ください。
データウェアハウスとはその名の通り『データを保管する場所』です。データウェアハウスは一元化されたデータ管理システムであり、ビジネス・インテリジェンス・アプリケーションにデータを送信する前、または送信するためにデータをクリーニング・準備した後のデータが保管される場所となります。
データウェアハウスは、単一または複数のソースから構造化されたデータをデータウェアハウスに収集し、レポート作成、アドホッククエリ、意思決定を容易にするプロセスです。
データウェアハウスが話題に挙がる時に気になるのは『データベースとは何が違うのか、用途の使い分けはあるのか』という部分ですが、この部分については1日目に言及したAirbyteのブログでとても分かりやすい説明が為されていたので参照、言及したいと思います。
カテゴリ | データベース | データウェアハウス |
---|---|---|
目的 | リアルタイムで取引を記録 | データ分析 |
利用用途(※1) | OLTP(オンライントランザクション処理)ワークロード | OLAP(オンライン分析処理)ワークロード |
データストレージ(※2) | 行指向ストレージ | 列指向ストレージ |
クエリ | CRUD操作 | 高度な分析操作と複雑なクエリ |
データのタイプ | 構造化データ | 構造化データ&半構造化データ |
データ統合の在り方 | 通常1つのアプリケーションから利用される | 複数のソースからのデータを統合 |
履歴データの扱い | 保存されない | 現在のデータ・履歴データを保存する |
(※2)行指向と列指向の違い:下記Treasure Dataのドキュメントをご参照ください。
その他データウェアハウスに関する詳細な説明や解説は下記ドキュメントをご参照ください。
MDSにおける主なデータウェアハウス系サービス
ここではモダンデータスタックにおける『データウェアハウス』のカテゴリで主だったサービスについて幾つか言及していきたいと思います。(ここでの評価はユーザーによるサイト内でのLIKEの数が多いものを中心に見ていきます)
Snowflake
Snowflakeは、S数千の組織がほぼ無制限の規模、同時実行性、パフォーマンスでデータを動員するグローバルネットワークであるデータクラウドを提供します。データクラウド内では、組織はサイロ化されたデータを統合し、管理されたデータを簡単に検出して安全に共有し、多様な分析ワークロードを実行します。データやユーザーがどこに存在しても、Snowflake は複数のパブリック クラウドにわたって単一のシームレスなエクスペリエンスを提供します。Snowflake のプラットフォームは、データ クラウドへのアクセスを強化および提供するエンジンであり、データ ウェアハウジング、データ レイク、データ エンジニアリング、データ サイエンス、データ アプリケーション開発、およびデータ共有のためのソリューションを作成します。
Snowflakeの基本的な部分の紹介に関しては下記ブログエントリに簡潔かつ分かりやすくまとめられています。合わせてご参照ください。
Snowflakeに関してはクラスメソッドの提供しているモダンデータスタックサービスでも取り扱っています。
また、DevelopersIOでもSnowflakeに関するエントリは数多く公開されています。記事は今後も積極的に執筆・公開していく予定です。
Google BigQuery
Google BigQueryはサーバーレスで費用対効果に優れたエンタープライズ データ ウェアハウスです。各種のクラウドで機能し、データに合わせたスケーリングも可能です。組み込みの ML/AI と BIを使用して、大規模な分析情報を取得できます。
クラスメソッドでは2023年08月にGoogle Cloud製品の販売・提案を行うプレミアパートナー認定を取得しています。
また、DevelopersIOでもGoogle BigQueryに関するエントリは数多く公開されています。記事は今後も積極的に執筆・公開していく予定です。
Amazon Redshift
Amazon Redshift は、SQL を使用して、データウェアハウス、運用データベース、データレイクにわたる構造化および半構造化データを分析し、AWSが設計したハードウェアと機械学習を使用して、あらゆる規模で最高の料金パフォーマンスを実現します。
また、DevelopersIOでもGoogle BigQueryに関するエントリは数多く公開されています。記事は今後も積極的に執筆・公開していく予定です。
まとめ
という訳で『Modern Data Stack Categories Overview Advent Calendar 2023』4日目の記事、データウェアハウスに関する紹介エントリでした。
本日の内容に関しては3つのデータウェアハウス共にクラスメソッドとしてもどれも馴染みのあるというか、関係性の深いものであるので改めておさらいした、という感じでしょうか。
明日5日目は『Feature Store(フィーチャーストア)』に関する内容となります。お楽しみに!